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摘 要 : 潜在 狄 利 克 雷 分 布 (LDA) 是 一 种 流行 的 三 层 贝 叶 斯 概率 模型 ， 其 实现 了 文本 与 文本 中 的 单词 在 主题 层次 上 的 
聚 类 。LDA 以 词 袋 (Bag of Words，BOW) 模 型 为 基础 ， 简 化 了 建 模 的 复杂 度 ， 但 使 得 主题 的 语义 连贯 性 较 差 ， 文档 表 
征 能 力 不 强 。 为 解决 此 问题 ， 提 出 了 一 种 基于 语义 分 布 相似 度 的 主题 模型 。 该 模型 在 EM(Expectation Maximization) 算 
法 框架 下 ， 使 用 GPU(generalized P6lya urn) 模 型 加 入 单词 -单词 和 文档 -主题 语义 分 布 相 似 度 来 引导 主题 建 模 ， 从 语义 关 
联 层 面 上 前 弱 了 词 袋 假设 对 主题 产生 的 影响 。 在 四 个 公开 数据 集 上 的 实验 表明 ， 基 于 语义 分 布 相 似 度 的 主题 模型 在 主 
题 语义 连贯 性 、 文 本 分 类 准确 率 方 面相 对 于 目前 流行 主题 建 模 算法 表现 的 更 加 优越 ， 同 时 该 模型 提高 了 收敛 速度 和 模 
型 精度 。 
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Semantic Distribution Similarity Based Topic Model 
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Abstract: The latent Dirichlet allocation (LDA) is a popular three-layer Bayesian probability model that implements clustering 
of words in text and text at the topic level. LDA is based on the bag-of-words, which simplifies the complexity of modeling, but 


makes the semantic coherence of topics poor, and text representation ability is not strong. To solve this problem, this paper came 


up with the semantic distribution similarity based topic model. This model uses GPU (generalized Polya urn) model to add word- 
word and document-topic semantic distribution similarity to guide topic modeling under the framework of EM (Expectation 
Maximization) algorithm, which weakened the effect of bag-of-words hypothesis on topics from the semantic association level. 
Experiments on four public datasets show that the semantic distribution similarity based topic model is superior to the currently 
popular topic modeling algorithms in terms of topic semantic coherence and text classification accuracy, and the model improves 
the convergence Speed and topic accuracy. 
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常 被 用 于 文本 分 类 02、 摘 要 抽取 呈 、 主 题 检测 和 追踪 哲 等 任务 。 
前 LDA 主题 模型 流行 的 推理 算法 主要 有 变 分 贝 叶 斯 

当前 ， 随 着 互联 网 技术 的 高 速 发 展 ， 网 络 数据 呈现 爆炸 式 (Variational Bayesian, VB)I、 吉 布 斯 采样 (Gibbs Sampling, GS)6D] 
的 增长 ， 主 要 包括 微 博 、 新 闻 、 网 页 、 图 像 和 声音 等 ， 其 中 网 和 期 望 最 大 化 (Expectation Maximization，EM)L67]。 基 于 这 三 种 
络 中 的 文本 信息 占据 着 主要 的 地 位 ， 如 何 从 海量 文本 信息 中 获 推理 算法 产生 了 一 些 针 对 特定 应 用 场景 的 变种 算法 ， 如 随机 变 
取 所 需要 的 知识 是 人 们 目前 所 面临 的 一 大 难题 ， 其 中 主题 模型 分 贝 叶 斯 四、 作者 主题 模型 中、 自 适 应 的 期 望 最 大 化 中 等 ,虽然 
是 解决 这 一 难题 的 有 效 工具 ， 主 题 模型 是 一 种 利用 非 监督 的 机 ”这 些 算法 能 够 取得 一 定 的 建 模 效果 ， 但 是 在 建 模 过 程 中 仍然 存 
器 学 习 算法 来 抽取 隐藏 在 文档 和 单词 中 的 潜在 主题 信息 的 统计 在 一 系列 的 挑战 。 首 先 ， 当 前 的 主题 模型 变种 通常 是 加 入 外 部 
模型 ,其 中 潜在 狄 利克 雷 分 布 (Latent Dirichlet Allocation,LDAJI ”的 先 验 知识 引导 建 模 来 实现 功能 或 语义 上 的 增强 ， 如 Chen 等 
是 一 种 常用 的 概率 主题 模型 ， 通 过 将 主题 作为 文档 与 单词 之 间 人 09 提 出 了 GK-LDA 模型 (General Knowledge LDA), 通过 利用 
的 中 间 层 特征 的 表达 方式 ， 实 现 显示 地 抽取 文本 的 语义 信息 ， 领域 独立 的 通用 知识 来 获取 单词 间 语 义 关系 ， 并 融合 到 主题 建 
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模 过 程 ， 提 高 主题 
进行 的 改进 ， 并 不 
错误 。 其 次 ， 当 前 
机 制 ， 如 Bekoulis 
其 假定 文档 中 两 个 


一 致 性 ， 其 主要 针对 特定 
具有 普遍 性 ， 同 时 获取 的 
的 主题 建 模 没有 较 好 地 结 


领域 的 短文 本 任务 


先 验 知识 可 能 存在 


合 相关 的 语义 强化 


样 使 得 主题 模型 能 

是 这 种 加 权 方 法 并 未 在 建 模 中 考虑 单词 之 间 
不 能 获得 语义 连贯 

题 建 模 大 部 分 使 用 吉 布 斯 采样 (GS) 来 实现 
法 往往 使 得 模型 的 迭代 不 能 收敛 到 一 个 


论 


当 的 语义 表征 能 力 
似 度 构建 文本 主题 
本 分 类 的 准确 率 ， 


不 强 。 针 对 以 上 问题 ， 
模型 ， 


等 人 [1 提出 了 一 种 基于 图 模型 的 加 权 方 法 ， 
单词 的 共 现 次 数 越 高 ， 相 应 的 权重 越 大 ， 这 
够 从 长 文档 中 获得 更 具 区 分 能 力 的 主题 ， 但 


性 和 可 解释 性 较 优 的 主题 "39。 此 外 ， 当 前 主 


的 语义 关系 ， 因 此 


参数 的 估计 ， 此 算 


里 想 状 态 ， 这 样 使 得 文 


本 文 基于 语义 分 布 相 


旨 在 增强 主题 的 语义 连贯 性 、 提 高 文 


同时 提高 收敛 速度 和 精度 。 


本 文 研究 了 概率 主题 模型 的 语义 强化 问题 ， 提 出 了 基于 语 


义 分 布 相似 度 的 主题 模型 (Semantic Distribution Similarity based 
Topic Model，SDS_TM)， 在 EM 算法 框架 下 


坛子 模型 (Generalized Polya Urn，GPU)03] 从 自 


主题 这 两 个 方面 进 
首先 , 针对 单词 - 


， 使 用 广义 波 利 亚 
词 -单词 和 文档 - 


行 语义 强化 ， 并 实现 SDS_TM 的 参数 估计 。 


词 的 语义 强化 , 通过 单词 


得 单词 之 间 的 相似 


计算 文档 的 语义 分 布 表 示 和 文档 中 单词 的 语义 分 布 表 示 之 间 的 


性 ; 其 次 ,针对 文档 -主题 


档 中 相应 主题 的 概 


相似 性 来 获得 文档 语义 的 代表 词 ， 以 其 数量 上 的 增加 来 提高 文 
率 。 本 文 将 基于 语义 分 布 相似 度 的 主题 模型 


的 语义 分 布 表 示 获 
的 语义 强化 ， 通 过 


与 目前 流行 的 推理 


算法 : 变 分 贝 叶 斯 (VB)、 


吉 布 


斯 采样 (Gibbs 


Sampling) 和 期 望 最 大 化 (EM) 进 行 了 对 比 ， 实 验 表 明 ， 基 于 语义 


分 布 相 似 度 的 主题 
性 方面 表现 的 更 加 


1 ”相关 工作 


1.1 


模型 能 够 在 主题 语义 连贯 


性 、 文 本 分 类 准确 


优越 ,同时 能 够 有 效 地 提高 收敛 速度 和 精 


LDA 主题 模型 


间 


LDA 模型 是 一 种 无 监督 的 三 层 贝 叶 斯 概率 图 模型 , 包含 文 


档 、 主 题 、 


圈 表 示 参 数 或 需要 


单词 三 层 。LDA 图 模型 如 图 1 所 


示 ， 其 中 非 阴 影 加 


估计 的 隐藏 变量 ， 阴 影 的 


圆圈 表示 可 观测 到 


方 框 中 的 下 标 表示 


的 变量 ;箭头 表示 两 变量 之 间 的 依赖 关系 ; 方 框 表示 重复 过 程 ; 


重复 的 次 数 。 LDA 模型 假 


定 整个 文本 集 有 天 


个 主题 ， 每 篇 文档 4 可 以 表示 为 长 度 为 天 的 主题 分 布 O% ， 每 
个 主题 表示 为 长 度 为 词汇 表 长 度 WW 的 单词 分 布 收 ， 一 篇 文 


档 是 生成 过 程 如 下 


0,~ Dir(@),b.~ Dir(B),z~ OX~ 


(1) 


其 中 假设 9 和 服从 狄 利克 雷 分 布 ( Dir )， 其 超 参数 分 别 为 2 


和 。LDA 的 建 模 过 程 是 逆向 的 通过 文本 集 
从 先 验 参数 为 的 狄 利克 雷 分 布 


合生 成 模型 ,首先 


对 于 一 篇 文档 4， 从 先 验 参数 为 & 的 狄 利克 


题 分 布 的 概率 分 布 


获取 每 个 主题 大 的 分 布 软 ， 


雷 分 布 中 获取 其 主 


9, ， 接 下 来 从 2 中 采样 出 文档 d 中 每 个 单 


词 ! 的 主题 3 ， 再 


程 直到 生成 所 有 的 


从 主题 单词 分 布 秋 中 获取 


文档 。 表 1 列 出 了 本 文 所 


w 。 重 复 这 样 的 过 
使 用 的 一 些 参数 。 


-人 


图 1 LDA 图 模型 


表 1 符号 定义 
符号 意义 
1<d<D 语料库 文本 索引 
1<w<W 词汇 表 中 单词 索引 
1<k<K 主题 索引 
1<t<T 迭代 次 数 
Ad 索引 为 {w,d} 的 单词 词 频 
x 所 有 *a 的 集合 
NNZ 非 零 元 素 个 数 
Rw 文本 d 中 所 有 单词 w 属 于 主题 的 个 数 
所 有 z 的 集合 
0, 文本 4 的 主题 分 布 
0,(K) 文本 4 的 主题 分 布 中 主题 & 的 概率 
人 主题 的 单词 分 布 
bk) 主题 上 的 单词 分 布 中 单词 w 的 概率 
Oa (k) 文本 4 的 主题 分 布 中 主题 的 概率 计数 
$k) 主题 的 单词 分 布 中 单词 w 的 概率 计数 
Hwa (Kk) 文本 4 中 单词 w 属于 主题 大 的 概率 
oa,p 狄 利 克 雷 分 布 的 超 参 数 
LDA 的 推理 目标 是 从 联合 概率 分 布 p(X,z,0,6|Q,B) 中 最 


大 化 特定 的 后 验 概率 ， 不 同 的 LDA 算法 对 于 后 验 概率 的 理解 
不 同 ， 目 前 主流 的 推理 算法 主要 有 变 分 贝 叶 斯 (VB)、 吉 布 斯 采 
样 (GS) 和 期 望 最 大 化 (EM)， 由 于 这 些 推 理 算法 优化 不 同 的 后 验 
概率 下 界 ， 所 以 其 建 模 的 结果 存在 差异 。 
1.2 基于 变 分 推断 的 算法 

Blei 在 提出 LDA 模型 时 给 出 了 一 种 基于 变 分 推 凯 的 求 参 
方法 (VB)， 该 算法 的 核心 是 利用 变 分 推断 方法 将 无 法 求解 的 后 
伶 概率 分 布 用 可 解 的 近似 分 布 代替 ， 通 过 近似 分 布 来 求解 变 分 
参数 ， 通 过 不 断 地 迭代 求 出 模型 参数 。 其 定义 的 优化 目标 为 : 
Pp(O,Z|x,G,0,pB)o p(O,7z,x,G|0,p) Q) 

变 分 推断 利用 平均 场 近 似 (Mean Field Approximation) 理 论 ， 
将 近似 分 布 赋予 可 完全 分 解 的 性 质 。 该 近似 分 布 定 义 为 : 


q(0,z|7,5)= gq(0| nT [4,15,) 


n=1 


G3) 


其 中 YY 和 5 为 文档 级 的 

图 2 所 示 。 

通过 最 小 化 近似 分 布 和 真实 分 布 之 间 的 Kullback- 

Leibler(KL) 距 离 来 求 导 参数 值 , 可 得 到 近似 分 布 的 更 新 公式 为 : 

exp[¥(0a(k)+ 0)]exp[¥(G,(K) 二 AD 
exp[¥(D),[G,(K) + PD] 


由 参数 ， 简 化 的 LDA 概率 图 模型 如 


Hak) cc (4) 
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Oa(K) = 2 Xa ta lk) (5) 


$F) = >, Xtalh) (0) 


(9) (ee 


图 2 简化 的 LDA 图 模型 
1.3 ”基于 吉 布 斯 采样 的 算法 

吉 布 斯 采样 (GS) 是 LDA 模型 解决 近似 推理 问题 的 一 种 解 
法 , 对 难以 求解 的 隐 变 量 的 联合 后 验 概 率 进 行 近似 采样 。GS 的 
优化 目标 为 : 


D 


PCcZ|c,O) 
PC|c,D) 

GS 是 马尔 科 夫 蒙特 卡 洛 (Markov Chain Monte Carlo ， 
MCMC)04 算 法 的 一 个 特例 ， 使 用 MCMC 从 目标 分 布 中 采样 ， 
首先 ， 移 除 当前 单词 i 的 主题 标签 区 % ， 然 后 ， 根 据 除 单词 i 
之 外 的 所 有 单词 的 主题 标签 分 布 z*%*，; 来 估计 当前 单词 分 配给 
各 个 主题 的 概率 Lui(k) , 最 后 , 随机 采样 出 一 个 主题 标签 分 配 
zw =1 给 当前 单词 ， 不 断 达 代 直到 收敛 。 更 新 公式 为 : 


plz|x,0,p) = xc plx,z| 2,p) (7) 


[O07 (0) + op +B] 


Lai(k) oc ze (8) 
DG, (+A] 
从 Lai(k) 中 采样 =1] 
其 中 
go(D=g (+2 (9) 
PO =p (+z (0) 


1.4 基于 期 望 最 大 化 的 算法 
期 望 最 大 化 算法 类 似 于 LDA 后 验 概率 最 大 算法 (Maximum 
APosterior，MAP)U5， 其 优化 目标 为 : 
PC|a,D) 
最 大 化 该 后 验 概率 可 以 理解 为 寻找 拟 合 x 的 最 优 {2, 作 ， 
将 似 然 概率 p(x,9,9|a,B) 展开 并 利用 Jensen 不 等 式 进行 最 大 
化 ， 求 导 后 可 得 到 EM 算法 的 EM 框架 ， 其 中 E-step 为 更 新 文 
档 4 中 的 单词 w 属于 主题 大 的 概率 : 
[Qa (Kk) + 0 -1G,(R)+B-1] 
>, +B-1 


p(0,$|x,0,P)= cc p(x,0,6|a,p) (11) 


忌 


4 


Ha (Kk) cc (12) 


M-step 为 更 新 充分 统计 量 {04(R),p,,(R)} : 


居 亚 亚 ， 等 :本 于 语义 分 布 栖 似 度 的 主题 模型 
Oak) = > asa(O (13) 
办 (0 = oa (k) (14) 

da 


1.5 目前 算法 分 析 对 比 

以 上 是 目前 LDA 主流 的 三 种 推理 算法 ， 由 于 这 些 算法 优 
化 目标 是 不 同 隐 变 量 之 间 的 组 合 ， 并 实现 间接 地 求解 LDA 的 
参数 {2 (0 办 (0 ， 所 以 它们 之 间 存 在 着 许多 不 同 点 。 变 分 贝 
叶 斯 (VB) 和 吉 布 斯 采样 (GS) 均 使 用 近似 推断 的 方法 实现 主题 建 
模 ， 此 外 ，VB 算法 在 计算 主题 分 布 时 引入 了 digamma 函数 ， 
因此 ， 算 法 的 精度 较 低 、 收 敛 速度 较 慢 ， 然 而 期 望 最 大 化 (EM) 
在 求解 参数 {2, 0, 办 (6)} 时 使 用 确切 的 推断 得 到 后 验 概率 的 确 
切 下 界 ， 因 此 该 算法 在 收敛 速度 和 精度 上 均 优 于 VB 和 GS 算 
法 四, 然而, 这 三 种 推理 算法 都 是 以 词 袋 BOW) 模 型 为 假设 , 既 
不 考虑 文档 与 文档 中 单词 的 关系 ， 也 不 考虑 单词 与 单词 之 间 的 
关系 ， 这 种 假设 虽然 简化 了 建 模 的 复杂 度 ， 但 是 使 得 主题 建 模 
的 效果 不 理想 。 


2 ”基于 语义 分 布 相似 度 的 主题 建 模 


前 流行 的 LDA 模型 推理 算法 均 是 以 词 伐 (BOW) 模 型 为 
假设 ， 即 将 文档 表示 成 一 个 词 频 向 量 ， 这 样 在 建 模 过 程 中 忽略 
了 文档 与 单词 、 单 词 与 单词 之 间 的 语义 关联 ， 丢 失 了 文档 的 句 
法 、 语 法 等 信息 ， 因 此 许多 研究 对 主题 模型 进行 了 一 些 扩展 ， 
但 是 这 些 扩展 主要 是 针对 特定 任务 或 者 是 引入 外 部 先 验 知识 引 
导 主 题 的 建 模 09， 都 是 对 传统 主题 模型 应 用 的 扩展 或 改进 ， 
没有 实质 性 的 差别 。 

本 文 提出 了 一 种 基于 语义 分 布 相似 度 的 主题 模型 ， 此 模型 
在 EM 算法 框架 下 分 别 从 单词 -单词 和 文档 -主题 两 个 方面 进行 
语义 强化 ， 主 要 思想 是 考虑 单词 与 单词 之 间 的 语义 关联 ， 即 与 
被 采样 单词 语义 关联 较 强 的 单词 属于 相同 主题 的 概率 较 大 ， 同 
时 还 考虑 了 文档 和 文档 中 的 单词 之 间 的 语义 关联 ， 与 文档 语义 
关系 紧密 的 单词 被 该 文档 相应 主题 选择 的 概率 增 大 ， 即 实现 了 
文档 -主题 的 语义 强化 。 通 过 双向 的 语义 强化 对 主题 建 模 的 过 程 
进行 改进 ， 有 效 地 增强 了 主题 语义 连贯 性 和 文档 表征 能 力 。 
2.1 基于 GPU 的 语义 强化 

广义 波 利 亚 坛子 (generalizedPolyaurn，GPU) 模 型 常 被 用 
主题 模型 的 采样 过 程 中 ， 在 上 下 文 主题 模型 中 ， 一 个 单词 被 
做 一 种 颜色 的 球 ， 一 个 主题 被 看 做 一 个 坛子 ， 主 题 的 分 布 通 
坛子 中 不 同 颜色 的 球 的 个 数 来 反映 , LDA 模型 遵循 广义 波 利 
坛子 模型 的 原因 是 当 从 坛子 中 取出 特定 颜色 的 球 时 ， 则 将 球 与 
球 颜 色相 同 的 球 一 起 放 回 坛子 中 ， 随 着 时 间 推 移 ， 坛 子 中 球 的 
个 数 变化 是 一 种 自我 强化 的 现象 , 即 “ 富 人 越 来 越 富 ” 这 个 过 
程 与 主题 模型 中 单词 的 主题 采样 是 一 致 的 。 本 文采 用 GPU 模 
型 分 别 从 单词 -单词 和 文档 -主题 这 两 个 方面 进行 主题 建 模 的 语 
义 强化 。 


光束 人 
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2.1.1 单词 -单词 的 语义 强化 数 来 约束 词 伐 (BOW) 模 型 对 语义 强化 的 影响 。 单 词 与 所 处 文档 

以 往 的 大 多 数 研 究 主要 是 通过 外 部 先 验 知识 获得 单词 与 单 之 间 的 语义 关联 在 GPU 模型 强化 过 程 中 的 体现 是 当 单 词 w 被 
词 之 间 的 语义 关系 ， 这 样 获得 的 语义 知识 不 一 定 符合 建 模 的 语 。 主题 采样 时 ， 若 该 词 与 文档 4 的 语义 关联 密切 ， 则 文档 4 中 
料 库 ， 因 此 ， 本 文 在 不 引入 外 部 先 验 知识 的 条 件 下 ， 从 单词 的 主题 的 概率 值 将 被 增强 。 文 档 -主题 的 GPU 语义 强化 是 通过 
局 部 上 下 文 语法 信息 和 全 局 文档 范围 内 的 语义 信息 这 两 个 角度 。 计算 语料库 中 单词 语义 分 布 与 其 所 在 文档 的 语义 分 布 之 间 的 语 
考虑 ， 获 得 语料库 中 单词 之 间 的 语义 关联 。 义 相似 度 , 如 式 (17) 所 示 , 其 中 5, 表示 单词 w 的 稀 玻 度 ，Asv( 
单词 -单词 的 GPU 语义 强化 ， 是 通过 计算 单词 语义 分 布 表 为 文档 4 中 单词 w 属于 主题 的 概率 值 ，9,(k) 为 文档 主题 分 
示 之 间 的 余弦 相似 度 来 实现 。 单 词 的 局 部 语义 分 布 是 通过 ” ” 布 , dw 为 文档 4 中 所 有 单词 的 集合 。 若 两 者 之 间 的 相似 度 大 了 
word2vecl1 模 型 获取 ，word2vec 模型 将 单词 表示 为 一 种 分 布 式 ” 浆 值 p(0< p<D，, 则 认为 文档 d 与 主题 之 间 需 要 语义 的 增强 
词 向 量 形式 ， 仅 从 单词 所 在 位 置 周围 的 文档 信息 考察 单词 的 语 。 Sim,zs ， 否 则 不 需要 进行 强化 。 强 化 矩阵 为 也 ,具体 强化 的 方式 
义 ， 忽 略 单词 在 全 局 文档 中 的 主题 信息 ， 通 过 固定 大 小 的 滑动 如 式 (18) 所 示 : 


n 


窗口 对 语料库 中 每 个 单词 进行 上 下 文 统计 ， 获 得 单词 w 的 上 下 

a 攻 a . co D0 0)* (6, pa lh)) 

文 语义 分 布 表示 = {VV V} ， 其 维度 为 K， 起 <s[0.H] 。 单 ,a 2D, [> ,2(D *(6 AL， ,(O)] (17) 
词 的 全 局 语义 分 布 表示 是 通过 LDA 模型 产生 的 主题 单词 分 布 | 

p(k) 获得 ，b,(k) 是 在 语料库 上 建 模 产生 的 全 局 文档 范围 内 的 So Simwa > p s 
语义 信息 ， 单 词 w 的 主题 分 布 被 表示 为 一 个 维 向 量 lo, Sims<p 09 
,=[$,(D,G,(2),…,8,(K)] ， 其 中 办 (os[0J] ， 文 献 [18] 中 对 词 ” 2.2 ”SDS_TM 模型 结构 


的 主题 分 布 向 量 进 行 了 研究 ， 傣 ( 口 是 一 个 稀 玻 矩阵 ， 当 天 足 本 文 提出 了 基于 语义 分 布 相似 度 的 主题 模型 (SDS_TM)。 

ee 3 本 SDS_TM 是 在 LDA 模型 的 基础 上 ， 采 用 GPU 模型 融合 单词 - 
够 大 时 |x|F 2i9(D1>0 ， 并 且 由 于 词 绕 (BOW) 模 型 的 单词 和 文档 -主题 的 语义 分 布 相似 度 来 实现 主题 建 模 过 程 中 的 
影响 ， 文 档 中 的 高 频 词 具有 较 低 的 稀疏 性 ， 关 键 词 或 低频 词 具 ”语义 强化 。 
有 较 高 的 稀疏 性 ， 传 统 主题 建 模 过 程 中 高 频 词 几 乎 占据 所 有 的 SDS_TM 的 图 模型 如 图 3 所 示 ， 图 中 斜 线 阴 影 部 分 表示 文 
主题 ， 因 此 ， 本 文 在 单词 语义 分 布 表示 中 引入 L2 范 数 来 抑制 。” 档 -主题 部 分 和 单词 -单词 部 分 的 GPU 语义 强化 。 前 者 依赖 于 主 
高 频 词 对 建 模 的 影响 ，L2 范 数 是 用 来 衡量 向 量 的 稀疏 度 ， 公 式 。” 题 建 模 中 产生 的 文档 主题 分 布 和 主题 单词 分 布 ， 后 者 不 仅 依赖 
(15) 是 单词 的 主题 向 量 稀疏 度 的 计算 公式 , 其 中 天 表示 主题 数 。 于 主题 单词 分 布 ,还 依赖 于 Skip-Gram 词 戏 入 ,即使 用 word2vec 


- 中 的 Skip-Gram 模型 获得 的 单词 局 部 语义 分 布 。 
S$ NE-NGAD Yb) (15) 


因此 ， 将 单词 的 局 部 语义 分 布 "和 全 局 语义 分 布 x, 进行 3 
rn 的 Gd) 
中 权重 5, 表示 在 向 量 空间 中 对 单词 的 位 置 进行 了 调整 ,使 得 同 on 
一 主题 下 的 单词 在 向 量 空间 中 的 距离 更 近 。 对 于 被 采样 的 单词 Me 
w， 与 其 余弦 相似 度 大 于 阔 值 X0<4<DD 的 单词 构成 该 单词 的 相 图 3 SDS_TM 图 模型 
似 单词 集合 W, ， 假 设 单词 的 相似 矩阵 为 4 ， 当 单词 w 被 采样 。 2.3 ”模型 参数 推断 
时 ， 则 集合 W, 中 的 所 有 单词 在 采样 主题 上 的 概率 值 都 将 被 增 前 主流 的 主题 模型 推理 算法 有 变 分 贝 叶 斯 (VB)、 吉 布 斯 
加 相应 的 余弦 相似 度 , 对 于 当前 单词 w 自身 增强 不 变 , 仍 为 1， 采样 (GS) 和 期 望 最 大 化 (EM) 算 法 ， 其 中 EM 算法 直接 优化 的 是 
其 他 情况 下 单词 不 进行 强化 。 具 体 的 强化 方式 如 式 (16) 所 示 。 ”LDA 模型 后 验 概率 的 确切 下 界 ， 在 泛 化 性 能 和 精度 方面 较 VB 
1 ee 和 GS 算法 表现 的 更 加 优越 , 所 以 基于 EM 算法 框架 对 SDS_TM 
A =)cos(t,st), w eW,Hwzw (16) ”模型 的 参数 进行 推断 。 根 据 EM 算法 的 更 新 公式 ， 文档 4 中 单 
0, 他 词 w 在 主题 上 上 的 更 新 公式 Ls(K) 如 式 (19) 所 示 , 使 用 GPU 模 
2.1.2 文档 -主题 的 语义 强化 型 融合 单词 -单词 和 文档 -主题 的 语义 分 布 相似 度 ， 充 分 统计 量 
以 往 对 于 主题 模型 强化 的 大 部 分 研究 仅仅 停留 在 词义 相近 go 和 办 (D 的 更 新 公式 如 式 (20) 和 (21) 所 示 。 
的 单词 之 间 的 语义 关联 , 并 未 考虑 单词 与 文本 之 间 的 语义 关联 。 二 的 克基 六 
本 文 从 文档 的 语义 分 布 表示 出 发 ， 考 虑 建 模 产生 的 文档 主题 分 革 
布 与 文档 中 单词 的 责任 值 人 ,Co 之 间 的 语义 关联 来 获得 文档 语 DR 
义 的 代表 单词 , 其 中 ps(h) 是 一 个 稀疏 算 阵 , 所 以 使 用 其 L2 范 
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C 


Du( 间 => Xtra PU+B,) (20) 


Bk) = Da allah) CD]) 


结合 SDS_TM 的 图 模型 和 更 新 公式 , 其 训练 过 程 如 下 所 示 ， 
当 模 型 初步 收银 时 (和 欠 代 次 数 大 于 下 界 bound)， 将 LDA 模型 获 
得 的 结果 与 word2vec 的 单词 局 部 语义 分 布 结合 , 在 主题 建 模 过 
程 中 使 用 GPU 模型 进行 语义 强化 。 由 于 单词 -单词 之 间 相 似 度 
的 计算 时 间 较 长 ， 所 以 在 模型 初步 收敛 后 ， 对 矩阵 4,- 每 次 间 


表 2 数据 集 
数据 集 万 W NNZ Category 
Cora 2410 2961 103699 7 
WebKB 4168 7764 202995 4 
R8 7674 22931 322973 8 
20 News 18821 92800 1549945 20 


表 2 简要 概括 了 这 四 个 数据 集 ， 其 中 D 为 语料库 中 文档 
数 、 球 为 单词 表 长 度 、NMYVZ 为 非 零 元 素 个 数 ，Category 为 数据 
集中 文本 类 别 的 数目 。 在 实验 之 前 ， 对 数据 集 进行 了 一 些 预 处 


隔 一 定 次 数 (iterval) 进 行 一 次 更 新 。 其 中 向 量 v? 表示 word2vec ) 


里 工作 ， 主 要 包括 去 除 标 准 的 停 用 词 、 去 除 出 现 次 数 小 于 3 的 


生 的 单词 局 部 语义 分 布 表示 , 本 文 设置 初步 收敛 下 界 bound=30， 
更 新 间隔 iterval=50。 
SDS_TM 的 训练 过 程 


输入 : x,K,T,a,pB,v 
输出 : 0,,6 


1 随机 为 每 个 单词 %* 分配 主题 ， 并 初始 化 以 及 标准 化 
pad ， 初 始 化 gs(k) 和 办 ( 
2 for {=1 to T: // 迭 代 循 环 ，T 为 循环 次 数 
所 (D0 /对 概率 计数 进行 初始 化 
4for a in x:// 人 遍历 语料库 中 的 每 个 单词 
5 for k in K: /分别 对 每 个 主题 进行 更 新 
6 让 1t<bound: 
7 ”使 用 式 (12) 更 新 必 jo ， 使 用 式 (13) 和 (14) 更 新 0 和 
$,(K) 


8 else 1f 1> bound: 


3 (kh) 0, 


91f t%irerval =—=0: 


10 使 用 式 (16) 和 (18) 计 算 单词 -单词 和 文档 -单词 的 语义 分 
布 相似 度 矩 阵 

ll else: 

12 ”使 用 式 (19) 更 新 上 so ， 使 用 式 (20) 和 (21) 更 新 0,() 


和 办 ( 
13 bj 和 0 ,p(k) pk) 
14 // 更 新 概率 分 布 6@(k) 和 $,(1) 


QP +o-l 
> ,6(O+w-1 


$+B-1 


0,(k) < 
” D6) +B-1 


,bh,(K) < 


3 ”实验 分 析 


实验 环境 和 数据 集 
本 实验 是 在 单机 多 核 服 务 器 上 进行 的 ， 该 服务 器 由 2 个 
Intel(R)Xeon(R) CPU @ 2.10GHz 的 CPU 组 成 , 每 个 CPU 有 8 
个 核 ， 总 计 16 核 ，140GB 内 存 。 
本 文 实验 是 在 四 个 公开 数据 集 上 进行 ， 分别 为 Cora、 
WebKB、Reuters R8(R8) 和 20 Newsgroups(20 News) 数 据 集 ， 文 
献 [18] 中 对 其 进行 了 相关 的 介绍 ， 表 2 展示 了 这 四 个 数据 集 的 
相关 信息 描述 。 


3.1 


单词 和 词 干 化 单词 等 。 
在 主题 模型 的 研究 和 应 用 中 ， 先 验 参 数 的 选取 对 主题 的 建 
模 产生 一 定 的 影响 U9， 但 是 对 于 参数 的 研究 不 是 本 文 的 重点 ， 
所 以 为 了 保证 对 比 实验 的 公平 性 和 简单 化 , 参考 文献 [1] 中 的 参 
数 设 置 ， 将 所 有 算法 中 的 先 验 参数 都 设置 为 a=50/K， 
B=0.01, 其 中 KK 为 主题 个 数 ,实验 中 总 迭代 次 数 设 置 为 7=1000， 
本 文 根 据 语义 分 布 相似 度 来 设置 相应 的 相似 度 阔 值 ， 截 取 前 
20%，4=0.6,D=0.4，word2vec 模型 的 滑动 窗口 大 小 设置 为 
5。 
3.2 


评价 标准 

本 文 对 主题 模型 的 建 模 能 力 进行 了 评估 ， 采 用 主题 模型 通 
j 领域 的 性 能 评价 指标 : 点 互信 息 指数 (Pointwise Mutual 
PMDHs20 、 分 类 准确 率 (Accuracy)D 和 混淆 度 


1721 。 


~ 


Information, 


(Perplexity) 

点 互信 息 (PMD 是 衡量 主题 语义 连贯 性 的 常用 评价 指标 , 其 
主要 思想 是 主题 单词 分 布 中 概率 值 最 高 的 前 NN 个 词 更 倾向 于 出 
现在 语料库 中 的 同一 篇 文档 ，PMI 评价 指标 通常 与 人 工 评价 的 
结果 一 致 ， 将 主题 中 概率 值 最 高 的 入 个 词 之 间 的 相关 性 作为 
PMI 值 ， 越 高 的 PMI 表示 越 强 的 主题 语义 连贯 性 ， 主 题 上 的 
PMI 计算 公式 如 下 所 示 : 


, 2 ,OW WwW)+te 

PMI(k,W -NNTD ES OO 
其 中 ，Q(w) 表示 单词 w 出 现在 语料库 中 的 文档 数目 ， 
Cow#,W) 表示 包含 单词 {wi,wj} 的 文档 数目 ，W* = (wh.…, wh) 
为 主题 大 中 概率 最 大 的 N 个 单词 列表 ，2 是 用 来 避免 对 数 为 0 
的 一 个 小 的 正 整 数 ， 本 文 设置 N=10 ，e=1。 

分 类 准确 率 是 衡量 文档 语义 表征 能 力 的 常用 指标 ， 将 主题 
作为 文档 特征 来 实现 文本 分 类 ， 本 文 将 数据 集 按 6:4 的 比例 划 
分 为 训练 集 和 测试 集 ， 使 用 支持 向 量 机 (SVM) 分 类 器 实现 分 类 
任务 ,分 别 进行 十 次 实验 求 其 平均 值 作为 准确 率 ,不 失 一 般 性 ， 


(22) 


经 过 实验 验证 ， 其 他 分 类 器 的 分 类 结果 与 其 一 致 。 分 类 准确 率 
的 计算 公式 为 : 
1 T 
Acuuracy = a D2 (23) 


其 中 , |C| 表 示 文 本 类 别 的 数目 ， 忆 表示 类 别 i 中 的 文本 数目 ， 
五 表示 类 别 中 被 分 类 正确 的 文本 数目 。 
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混淆 度 是 评价 LDA 模型 建 模 好 坏 的 常用 评价 指标 之 一 ， 
其 可 以 被 理解 为 语料库 中 所 有 单词 似 然 值 几何 平均 数 的 倒数 ， 
越 低 的 混淆 度 表 示 越 好 的 泛 化 性 能 。 其 计算 公式 为 : 


> Xalog [> 0 (RG, A)] 六 并 
六 Xd 


Perp oo| 


3.3 ”实验 对 比分 析 
3.3.1 语义 连贯 性 分 析 
本 文 将 目前 流行 的 LDA 推理 算法 , 即 变 分 贝 叶 斯 (VB)、 吉 
布 斯 采样 (GS) 和 期 望 最 大 化 (EM) 与 提出 的 基于 语义 分 布 相似 
度 的 主题 模型 (SDS_TM) 作 对 比 ， 图 4 展示 了 四 种 算法 在 不 同 
的 主题 数 KK 下 ,Cora、WebKB、R8 和 20 News 数据 集 上 的 PMI 
值 对 比 , 可 以 看 出 , 本 文 提 出 的 SDS_TM 的 PMI 值 总 体 较 高 
取 的 主题 具有 较 高 的 语义 连贯 性 。 
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图 4 不 同 主题 数 玉 下 PMI 值 比较 

VB 算法 优化 的 是 后 验 概 率 的 近似 下 界 ，GS 算法 是 通过 简 
单 采样 方法 获得 单词 的 主题 标签 , 这 两 种 都 是 近似 推 新 , EM 入 
法 是 精确 地 优化 后 验 概率 表示 ， 所 以 较 VB 和 GS 算法 能 够 获 
得 语义 相关 性 更 强 的 主题 ， 但 是 这 三 种 推理 算法 都 是 建立 在 词 
袋 (BOW) 模 型 的 基础 上 ， 和 忽略 了 主题 模型 中 的 语义 关系 ， 而 
SDS_TM 能 够 有 效 地 将 单词 -单词 和 文档 -主题 的 语义 关联 融合 
到 主题 建 模 中 , 因此 SDS_TM 能 够 获得 语义 连贯 性 较 高 的 主 
3.3.2 文本 分 类 效果 分 析 

本 文 将 SDS_TM 模型 用 于 文本 分 类 任务 , 以 验证 模型 整体 
有 效 性 ， 文 本 分 类 准确 率 越 高 ， 则 表示 主题 的 特征 表达 能 力 越 
强 。 表 3 展示 了 四 种 算法 在 R8 数据 和 20 News 数据 集 上 文本 
分 类 准确 率 随 着 主题 数 K 的 变化 情况 ， 可 以 看 出 SDS_TM 模 
型 在 两 个 数据 集 上 都 能 获得 较 高 的 准确 率 ， 其 中 精确 推 
EM 算法 比 近似 推断 算法 VB 和 GS 算法 的 准确 率 较 高 ， 其 中 
R8 数据 集 上 分 类 准确 率 较 20 News 数据 集 上 较 高 , 这 可 能 由 于 
文档 大 小 对 主题 建 模 的 影响 ，R8 比 20 News 具有 较 短 的 词汇 
表 ， 在 R8 数据 上 文本 的 稀 玻 性 较 小 ， 能 够 获取 更 加 相似 语义 
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信息 ， 更 能 有 效 地 引导 主题 建 模 。 


表 3 不 同 主题 数 玉 下 分 类 准确 率 比 较 

数据 集 算法 K=20 天 =40 K=60 K=80 K=100 
VB 0.784 0.778 0.772 0.774 0.766 

GS 0.905 0.905 0.881 0.886 0.883 

EM 0.909 0.901 0.888 0.893 0.887 
SDS TM 0.937 0.921 0.919 0.924 0.936 

VB 0.526 0.557 0.557 0.5432 0.5458 

GS 0.598 0.720 0.718 0.729 0.724 

20 News 

EM 0.710 0.754 0.757 0.737 0.733 

SDS TM 0.735 0.781 0.781 0.753 0.778 


3.3.3 算法 收敛 性 和 模型 精度 分 析 
收敛 性 是 一 种 评价 模型 训练 快慢 的 常用 指标 ， 


展示 了 四 种 LDA 算法 在 数 和 
次 数 的 变化 情况 。 由 于 SDS_T 
了 语义 分 布 相似 度 信息 ,所 以 
和 EM 算法 为 每 个 单词 保留 了 所 


M 模型 在 建 模 过 程 中 


图 5 和 图 6 


居 集 R8 和 20 News 上 混淆 度 随 迭代 
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的 主题 信息 ， 


其 收敛 速度 最 快 ， 其 中 , VB 算法 
它们 的 收敛 速 


度 较 GS 算法 较 快 ， GS 算法 只 为 每 个 单词 采样 出 一 


采样 的 过 程 比较 慢 ， 所 以 其 收敛 速度 最 | 
其 他 三 种 算法 在 最 终 的 混淆 度 方面 存在 优势 ， 混 淆 度 越 低 
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更 强 的 泛 化 能 力 , VB 
度 最 大 ， 因 为 其 简化 了 模型 的 复杂 度 ， 所 以 
民 次 数 大 于 30 时 , 主题 模型 趋向 


于 大 臻 收敛， 通过 引入 单词 -单词 和 文档 -主题 的 语义 分 布 相似 


度 来 引导 主题 建 模 ，SDS_TM 模型 的 混淆 度 下 降 


局 度 


兽 加 ， 


快速 趋向 于 收敛 状态 , 因此 SDS_TM 在 收敛 速度 和 模型 精度 方 
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其 他 算法 都 能 够 表现 得 更 加 优越 。 
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图 5 R8 数据 集 上 混 消 随 迭代 次 数 变化 
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本 文 针 对 


前 的 主题 模型 推理 


算法 中 存在 的 语义 连贯 性 较 


差 ， 文 档 表征 能 力 不 强 等 缺点 ， 提 出 了 一 种 基于 语义 分 布 相似 
度 的 主题 模型 (SDS_TM)。 此 模型 在 EM 算法 框架 下 ,有效 地 使 
GPU 模型 将 单词 -单词 和 文档 -主题 之 间 的 语义 关联 融合 到 主 
题 建 模 过 程 中 ， 从 而 推断 出 主题 模型 的 参数 。 实 验 表 明 ， 
SDS_TM 在 主题 语义 连贯 性 、 文 本 分 类 准确 率 、 收 敛 速度 和 模 
型 精度 方面 均 表 现 优异 。 下 一 步 针 对 SDS_TM 的 研究 主要 集中 
在 提高 计算 语义 分 布 相似 度 的 速度 ， 及 其 在 大 数据 流 上 的 应 用 
和 并 行 加 速 等 方面 ， 在 提高 模型 精度 的 情况 下 ， 加 快 模型 的 训 
练 速度 。 
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